Day 9 - 目前(傳統)的機器學習三步驟(4)-訓練之測試 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 12 屆 iThome 鐵人賽

自我挑戰組

AI 高中生的自我學習系列第 9 篇

Day 9 - 目前(傳統)的機器學習三步驟(4)-訓練之測試

12th鐵人賽 overfitting 過適交叉驗證 cross-validation

Harry Lin

2020-12-09 18:23:57

3470 瀏覽

分享至

交叉驗證 Cross-Validation (wiki)

交叉驗證，有時亦稱循環估計，是一種統計學上將數據樣本切割成較小子集的實用方法。於是可以先在一個子集上做分析，而其它子集則用來做後續對此分析的確認及驗證。一開始的子集被稱為訓練集。而其它的子集則被稱為驗證集或測試集。交叉驗證的目的，是用未用來給模型作訓練的新數據，測試模型的性能，以便減少諸如過擬合和選擇偏差等問題，並給出模型如何在一個獨立的數據集上通用化

1.Cross-validation avoids overlapping test sets

First step: split data into k subsets of equal size
Second step: use each subset in turn for testing, the remainder for training

2.Called k-fold cross-validation
3.Often the subsets are stratifified before the cross- validation is performed
4.The error estimates are averaged to yield an overall error estimate

下例說明 3 子集驗證 (k=3)

小心Overfitting (過適)

1.(wiki)在統計學中，過適（英語：overfitting，或稱擬合過度）是指過於緊密或精確地匹配特定資料集，以致於無法良好地調適其他資料或預測未來的觀察結果的現象。
2.(wiki)在統計學習和機器學習中，為了避免或減輕過適現象，須要使用額外的技巧（如模型選擇、交叉驗證、提前停止、正則化、剪枝、貝葉斯資訊量準則、赤池資訊量準則或dropout）。
3.以下綠線及藍線是overfitting